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(57) Abstract 

The invention 
relates to a method and 
system for representing 
the relevance of electronic 
documents in relation 
to user-specific search 
and interest profiles. The 

relevance of each respective document in relation to specific search profiles is essentially determined by counting words. Documents and 
search profiles are interpreted as vectors, individual words are considered as vector components and the frequency of words is seen as 
values of vector components. The document vectors and search profile vectors are projected on a common plane and the angle formed by 
the vectors is used to measure the conformity of said document in relation to the respective search profile. The results of analysis are 
represented in three dimensions enabling the documents to be arranged in such a way that similar documents are located next to each 
other or documents which are relevant to a search profile are arranged close to said search profile. The system can be especially used in 
searches in computer networks such as Internet or for databank searches and visualization of library contents, archives or complex data 
stock of all varieties. 



(57) Zusamrnenfassung 

Die Erfindung beschreibt ein Verfahren und ein System zur Darstellung der Relevanz elektronischer Dokumente in Bezug auf 
benutzerspezifische Such- bzw. Interessenprofile. Die Relevanz der jeweiligen Dokumente in Bezug auf bestimmte Suchprofile wird im 
wesentlichen durch Zahlen von Worten bestimmt. Dokumente und Suchprofile werden dabei als Vektoren aufgefaBt, mit den einzelnen 
Worten als Vektorkomponenten und der Haufigkeit der Worte als Werten der jeweiligen Vektorkomponenten. Die Dokumentenvektoren 
und Suchprofilvektoren werden in eine gemeinsame Ebene projiziert und der Winkel zwischen den Vektoren dient als MaB fur die 
Obereinstimmung des Dokuments mit dem jeweiligen Suchprofil. Die Analyseergebnisse werden dreidimensional dargestellt und zwar 
derartig, daB Dokumente so angeordnet werden, daB ahnliche Dokumente beieinander liegen, bzw. Dokumente, die relevant auf ein 
Suchprofil sind, in der Nahe dieses Suchprofiles angeordnet werden. Angewendet werden kann dieses System insbesondere bei Suchen 
in Rechnernetzwerken, wie dem Internet bzw. Datenbankrecherchen und zur Veranschaulichung von Bibliotheksinhalten, Archiven oder 
komplexen Datenbestanden aller Art. 
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Beschreibung 

Verfahren und System zur rechnergestiitzten Ermittlung einer 
Relevanz eines elektronischen Dokuments fur ein vorgebbares 
5 Suchprof il . 

Die Erfinduhg bezieht sich auf ein Verfahren und ein System, 
womit die Relevanz von Dokumenten, wie sie beispielsweise bei 
einer Internetsuche gefunden werden, beziiglich vorgegebener 
10 Interessenprof ile dargestellt werden kann. 

Die zunehmende elektronische Datenflut in Wissenschaf t, Inge- 
nieurwesen und Wirtschaft erschwert das Auffinden und den Zu- 
griff auf relevante, verlaflliche und moglichst vollstandige 
15 Inf ormationen. Bisherige Losungsvorschlage ftir Data Mining 
und Visualisierung grofier Inf ormationsmengen, insbesondere 
von Volltexten und WEB-Seiten, sind haufig weder anwender- 
freundlich noch effizient genug ftir den praktischen Einsatz, 

20 Bestehende Technologies wie sie z. B. bei Internet Recher- 
chen angewendet werden, beschranken sich zur Zeit noch uber- 
wiegend auf die Ausgabe von Texten oder unubersicht lichen 
Listen von Quellenangaben. Ansatze zur Visualisierung sind 
zwar in der Literatur dokumentiert , beschranken sich aber 
25 entweder auf die Visualisierung wissenschaf tlicher Daten, 

oder vernachlassigen die Aspekte der Erschliefiung von Infor- 
mationsbestanden und die Ankopplung an die Visualisierung, 
Aus dem Artikel von T. Fuhring, K. Jacoby, R. Michelis, J. 
Panyr "Kontextgestaltgebung: Eine Metapher zur Visualisierung 
30 und Interaktion mit komplexen Wissensbestanden" , erschienen 
in den Proceedings des 4. Internationalen Symposiums fur In- 
f ormationswissenschaf t (ISI '94) Band 16, ist es bekannt eine 
approximative Einbettung formaler Kontexte in 3D- Inf ormati- 
onsraume durchzuf tihren, deren formale Semantik uber den 
35 Abstandsbegrif f auf der Grundlage des Prinzips "kontextuelle 
Nahe « raumliche Nahe" definiert wird. Hierdurch ist es mog- 
lich binare formale Kontexte darzustellen. 
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Aus [1] und [2] ist bekannt, Dokumente hinsichtlich der 
Relevanz dieser Dokumente bezuglich vorgegebener 
Schliisselworte zu analysieren. 

5 Ferner ist aus [3] bekannt, Dokumente hinsichtlich der 
Haufigkeit des Auftretens eines Schlusselwortes zu 
untersuchen. 

Der Erfindung liegt die Aufgabe zu Grunde ein Verfahren und 
10 ein System fur die Veranschaulichung mehrwertiger formaler 
Kont exte anzugeben . 

Diese Aufgabe wird fur das Verfahren gemafi den Merkmalen des 
Patentanspruches 1 und fur das System gemafi den Merkmalen des 
15 Patentanspruches 13 gelost. 

Bei dem Verfahren zur rechnergestutzten Ermittlung einer 
Relevanz eines elektronischen Dokuments fur ein vorgebbares 
Suchprofil werden mindestens folgende Schritte durchgef tihrt : 
20 a) es wird das Suchprofil, das mindestens ein Wort umfafit, 
erstellt ; 

b) fur jedes Wort des Suchprofils wird die 

Auf trittshauf igkeit des Wortes in dem elektronischen 
Dokument bestimmt; 

25 c) unter Verwendung der Auf trittshauf igkeit jedes Wortes wird 
fur das elektronische Dokument ein Ergebnisprof il bestimmt; 
d) unter Verwendung des Suchprofils und des Ergebnisprof ils 
des elektronischen Dokuments wird ein Vektor fur das 
Suchprofil bestimmt, wobei jedes Wort des Suchprofils eine 

30 Vektorkomponente und ein vorgebbarer Wert ein Wert der 

Vektorkomponente ist, und ein Vektor fur das Ergebnisprof il 
bestimmt, wobei jedes Wort des Suchprofils eine 
Vektorkomponente und die entsprechende Haufigkeit ein Wert 
der Vektorkomponente ist; 

35 e) es wird ein Winkel zwischen dem Vektor des Suchprofils und 
dem Vektor des Ergebnisprof ils bestimmt; 
f) unter Verwendung des Winkels wird die Relevanz bestimmt. 
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Diese Relevanzbestimmung lalit sich mit relativ geringem 
Rechenaufwand durchf xihren, so dali viele Suchprofile in bezug 
auf viele Dokumente analysiert werden konnen und gleichzeitig 
5 ein akzeptables Zeitverhalten erreicht wird. 

Das System zur rechnergestutzten Ermittlung einer Relevanz 
eines elektronischen Dokuments fur ein vorgebbares Suchprofil 
weist mindestens folgende Merkmale auf: 
10 a) es ist ein Rechner (COMP) vorhanden, der derart 

eingerichtet ist, dafi folgende Schritte durchftihrbar sind: 

- es wird das Suchprofil, das mindestens ein Wort umfaflt, 
erstellt; 

- fur jedes Wort des Suchprofils wird die 

15 Auf trittshaufigkeit des Wortes in dem elektronischen 

Dokument bestimmt; 

- unter Verwendung der Auf trittshaufigkeit jedes Wortes 
wird fur das elektronische Dokument ein Ergebnisprof il 
bestimmt; 

20 - unter Verwendung des Suchprofils und des 

Ergebnisprof ils des elektronischen Dokuments wird ein 
Vektor fur das Suchprofil bestimmt, wobei jedes Wort 
des Suchprofils eine Vektorkomponente und ein 
vorgebbarer Wert ein Wert der Vektorkomponente ist, und 

25 ein Vektor fUr das Ergebnisprof il bestimmt, wobei jedes 

Wort des Suchprofils eine Vektorkomponente und die 
entsprechende Haufigkeit ein Wert der Vektorkomponente 
ist; 

- es wird ein Winkel zwischen dem Vektor des Suchprofils 
30 und dem Vektor des Ergebnisprof ils bestimmt; 

- unter Verwendung des Winkels wird die Relevanz 
bestimmt; 

b) es ist eine grafische Rechneranzeigevorrichtung (DIS) vor- 
handen; 

35 c) es sind Mittel zum Zugriff (Z) auf elektronische Dokumente 
(D) vorhanden. 
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Weiterbildungen der Erfindung ergeben sich aus den abhangigen 
Anspriichen. 

Vorzugsweise werden ein erstes, den Vektor eines Suchprofils 
5 reprasentierendes, Element und ein zweites, den Vektor eines 
Ergebnisprof il eines elektronischen Dokuments 
reprasentierendes, Element dargestellt. 

In einer weiteren Ausgestaltung der Erfindung werden mehrere 
zweite Elemente, die jeweils einen Vektor eines 
Ergebnisprof ils eines elektronischen Dokuments 
reprasentieren, derart dargestellt, dafi zweite Elemente von 
elektronischen Dokumenten, welche Dokumente eine Relevanz 
aufweisen, die kleiner ist als ein Schwellenwert, Srtlich 
naher beieinander dargestellt werden als zweite Elemente von 
elektronischen Dokumenten, welche elektronische Dokumente 
eine Relevanz aufweisen, die nicht kleiner ist als der 
Schwellenwert . 

Vorteilhaft wird die Erfindung durch Anwendung einer Winkel- 
funktion auf die gefundenen Winkel zwischen den Suchvektoren 
und den Ergebnisvektoren weitergebildet und in Form einer Re- 
levanzmatrix weiterverarbeitet, da diese als Ahnlichkeitsma- 
trix interpretiert Oder auf einfache Weise in eine solche um- 
gewandelt werden kann. 

Vorteilhaft wird die Erfindung unter Verwendung einer Ahn- 
lichkeitsmatix weitergebildet, welche aus der Relevanzmatrix 
abgeleitet wird, und die Ahnlichkeit einzelner Dokumente un- 
30 tereinander angibt. Auf diese Weise lafit sich die Metapher 
"raumliche Nahe = inhaltliche Nahe" in der graphischen Dar- 
stellung sehr einfach realisieren und somit ist bei der Auf- 
bereitung fur die Graphik ein geringerer Rechenaufwand erfor- 
derlich. 

35 

Vorteilhaft wird die Erfindung durch die Anwendung der Kosi- 
nusfunktion auf die gefundenen Winkel zwischen den Vektoren 
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weitergebildet, da der Kosinus von 0° = 1 ist. Somit wird bei 
einem Ubereinanderliegen der Vektoren eine Identitat der Do- 
kumente angegeben, was dem Sachverhalt, der durch die Vekto- 
ren dargestellt wird, entspricht. 

5 

Vorteilhaft wird das erf indungsgemalie Verfahren durch die An- 
wendung in einem Rechnernetzwerk weitergebildet, da haufig 
aus Rechnernetzwerken elektronische Dokumente als Suchergeb- 
nisse erhalten werden, welche innerhalb eines akzeptablen 
10 Zeitabschnitts nicht von Menschen analysiert werden konnen. 

Vorteilhaft wird in einer Weiterbildung der Erfindung als 
Rechnernetzwerk das Internet verwendet, da das Internet bzw. 
World Wide Web ein weit verbreitetes Netzwerk darstellt und 
15 somit eine hohe Nutzerbasis fur das erf indungsgemafie Verfah- 
ren vorliegt. 

Vorteilhaft wird die Erfindung durch die Verwendung von elek- 
tronischen Dokumenten aus Datenbanken weitergebildet, da 
20 hierdurch Bibliotheken und andere Datenbanken fur elektroni- 
sche Dokumente sinnvoll, transparent und schnell veranschau- 
licht werden konnen. 

Vorteilhaft ist ein System bestehend aus einem Rechner einem 
25 Display und Mittel zum Zugriff auf elektronische Dokumente, 

welches das erf indungsgemafie Verfahren und vorzugsweise seine 
Weiterbildungen ausfUhrt, da die Hardware-Mi ttel weit ver- 
breitet sind und eine gute Verfugbarkeit dieser Mittel ge- 
wahrleistet ist. Ebenfalls ist der Zugriff auf elektronische 
30 Dokumente durch weitverbreitete Netzzugangsmittel und offent- 
liche und private Netze gewahrleistet . 

Im Folgenden werden Ausf uhrungsbeispiele der Erfindung anhand 
von Figuren weiter erlautert. 

35 

Figur 1 zeigt ein Beispiel zur Bildung einer Relevanzmatrix 
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Figur 2 veranschaulicht weitere Verarbeitungsschritte des 
Verf ahrens 

Figur 3 veranschaulicht die Winkelberechnung 
Figur 4 zeigt einen Bildschirmausschnitt nach Durchfuhrung 
5 des Verf ahrens. 

Wie Figur 1 zeigt werden bei einer Ausgestaltung des erfin- 
dungsgemafien Verf ahrens elektronische Dokumente Dl, D2 und DN 
verwendet und anhand von Suchprofilen PI, P2 und PM, welche 
10 fallweise gewichtete Suchbegriffe enthalten, wird die Infor- 
mation, welche in den Dokumenten Dl bis DN enthalten ist, er- 
schlossen. Bei den verwendeten Dokumenten Dl bis DN kann es 
sich beispielsweise um Dokumente handeln, welche im World 
Wide Web bei einer Net-Suche gefunden wurden. Bei den Profi- 
15 len kann es sich um handerstellte bzw. vom Benutzer defi- 

nierte Suchprofile handeln, welche fallweise an den einzelnen 
Begriffen Gewichtungen gemafi ihrer Wichtigkeit aufweisen. 
Ebenfalls ist es denkbar als Profile auch Dokumente zu ver- 
wenden. Beispielsweise ist es auch denkbar Suchprofile anhand 
20 von Wortstatistiken zu erstellen, welche anhand von Dokumen- 
ten durchgefiihrt werden, die der Bediener fur hochst interes- 
sant halt und dem Rechner zur Verfiigung stellt. Ebenso ist es 
denkbar Suchprofile unterstutzt durch einen f achspezif ischen 
Thesaurus einzugeben. Auch konnen durch Beobachten des Benut- 
25 zerverhaltens und durch Lernkomponenten Suchprofile automa- 
tisch generiert werden 

In einem Bearbeitungsschritt 100 wird die Relevanz zwischen 
den einzelnen Profilen PI bis PM und den einzelnen Dokumenten 
30 Dl bis DN bestimmt . Vorzugsweise geschieht dies fur alle Do- 
kumente und alle Profile, so daB eine Relevanzmatrix R ent- 
steht. Zur Bestimmung der Relevanz wird vorzugsweise die 
Worthauf igkeit in den Dokumenten ermittelt und tibereinstim- 
mende Worte mit den jeweiligen Suchprofilen werden gesucht . 
35 Anschliefcend werden die Suchprofile und die je Dokument und 

Suchprofil ermittelten Ergebnisprof ile als Vektor dargestellt 
und in der Vektorebene, die durch die Begriffe des Suchvek- 
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tors aufgespannt wird, wird der Winkel zwischen den Suchvek- 
tor und dem Ergebnisvektor bestimmt und als Mali fur die Rele- 
vanz des Dokumentes das untersucht wurde, verwendet. In Figur 
1 ist die Relevanzmatrix R mit Zahlen und Buchstaben verse- 
5 hen, um anzudeuten, wie eine Relevanzmatrix aussehen kann. 
Waagerecht sind beispielsweise die Profile PI bis PN aufge- 
tragen und senkrecht die Dokumente Dl bis DN. An den Schnitt- 
punkten der jeweiligen Spalten und. Zeilen stehen die Rele- 
vanzwerte. Hierdurch wird erstmals ein mehrwertiger formaler 
10 Kontext realisiert, wodurch die i-te-Zeile der Matrix R den 

Relevanzen des i- ten-Do kuments bezuglich aller Profile k ent- 
spricht . 

Wie Figur 2 weiter zeigt kann die Relevanzmatrix R in Prozefi- 
15 schritten 200, 300 und 400 weiterverarbeitet werden. Bei- 
spielsweise steht iiber eine Schnittstelle 500 der Zugriff 
auf Dokumente und Suchprofile und Browser zur Verfugung. In 
einem ersten Schritt 200 wird beispielsweise aus der Rele- 
vanzmatrix eine Ahnlichkeitsmatrix berechnet, wozu aus den 
20 Relevanzwerten fur einzelne Dokumente mit anderen Dokumenten 
eine Korrelationsanalyse durchgefiihrt wird. Bevorzugt wied 
die Korrelationsmatrix C folgende Rechenschritte durch 
Berechnung der Korrelationskoef f izienten C ik zwischen den 
Dokumenten bezuglich der Suchprofile aus der Matrix R durch 
25 folgende Schritte bestimmt: 

-Normierung der Zeilenvektoren ri der Matrix R: 

q±= (ri-mi) 
mit Mittelwert m^l/N I ri 

Lange q± und Standardabweichung a ± =sqrt (L (ri-mi) 2 ) 

30 

-Berechnung der Korrelationskoef f izienten zu 

T 

= und der Matrix C. 

-C entspricht dabei in der Form der bisherigen Ahnlich- 
keitsmatrix, bzw. einer Gegenstands-Gegenstandsmatrix . 
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Beispielsweise kann der Mechanismus zur Berechnung der Ahn- 
lichkeit durch unterschiedliche MaBnahmen verbessert werden. 

-In einem ersten Schritt konnen beispielsweise Stopworter 
5 eliminiert werden, welche im allgemeinen von der Domane der 
Abhandlung des speziellen Dokumentes abhangig sind. In vie- 
len Fallen konnen dieses Konjunktionen, Artikel, Prapositio- 
nen sein, die sicher entfernt werden konnen, ohne daB dabei 
der Inhalt des Dokiomentes verfremdet wird. 

10 

-Fallweise kann es auch moglich sein domanenspezif ische Worte 
zu entfernen, urn die Signifikanz des gefundenen Mafies zu 
verbessern. 

15 -Als weitere MaBnahme kann die Metrik des verwendeten Systems 
auf wichtige Aspekte der Applikationsdomane fokussiert wer- 
den. In diesem Fall konnen nur einige wenige Konzepte Oder 
Aspekte der beschriebenen Worte aus domanenspezif ischen The- 
sauri verwendet werden, oder Ontologien. 

20 

-Als weitere MaBnahme kann die Unterscheidungskraf t des Ver- 
fahrens verbessert werden, indem eine umgekehrte Dokument- 
f requenzkorrektur eingefUhrt wird. Bei dieser Methode werden 
Wortgewichte verwendet, wobei Worte, die in vielen Dokumen- 

25 ten auftreten, mit einem logarithmischen Faktor F gewichtet 
werden. Dieser Faktor bestimmt sich beispielsweise so, dafi F 
= log(Anzahl der Dokumente D, welche das Wort Wj enthal- 
ten/durch die Gesamtzahl der Dokiomente) . Als Folge dieser 
MaBnahme erhalt man ein wortabhangig gewichtetes Ahnlich- 

30 keitsmaB . 

In einem Verarbeitungsschritt 300 findet beispielsweise die 
Umsetzung der Ahnlichkeitsmatrix ftir eine raumliche Darstel- 
lung gemaB dem anfangs zitierten Stand der Technik statt. In 
35 einem Verarbeitungsschritt 400 wird gemaB dem Stand der Tech- 
nik der in Schritt 300 zur Verfugung gestellte Datensatz 
dreidimensional visualisiert . 
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-Darstellung der Korrelationsmatrix C durch raumliche Ab- 
stande nach einem bekannten Verfahren. 

-Anwendung der bekannten Optimierungsalgorithmen zur 
grafischen Aufbereitung. 

-Beriicksichtigung der Merkmale in der graphischen Darstel- 
lung. 

-Ein Dokument ist relevant zu einem Profil, wenn wenig- 
stens ein Wort des Profils einmal im Dokument auftritt. 
-» Der Gegenstand "Dokument i" hat das Merkmal "Profil 
k". 



-Visualisierung im 3D-Raum 

-VRML : Anwahlen der Dokumente und Profile zeigt die Dokument- 
15 . und Profildateien im Fenster eines Internet-Browsers (z. B. : 
Netscape) . 



Der Weg uber eine Ahnlichkeitsmatrix, welche aus der Rele- 

20 vanzmatrix abgeleitet wird, ist beim erf indungsgemafien Ver- 
fahren jedoch nicht zwingend erf orderlich. Es besteht ebenso 
die Moglichkeit eines direkten Ansatzes, wobei die Relevanz- 
matrix R direkt in einen dreidimensionalen Raum umgesetzt 
wird. Hier wird nicht die Metapher der Ahnlichkeit zwischen 

25 Dokumenten und der rauiulichen Nahe benutzt, sondern vielmehr 
die Relevanz eines Dokuments im Bezug auf ein bestimmtes 
Merkmal in eine raumliche Nahe umgesetzt. Mit der Erfindung 
wird erstmals die Integration von Textanalyse, Visualisierung 
und Retrieval in einem System realisiert. Insbesondere wird 

30 durch die Erfindung eine neue Verbindungskomponente angege- 
ben, welche aus den Ergebnissen der Dokumentanalyse die Ahn- 
lichkeit von Dokumenten berechnet. Diese Komponente beruht 
auf einem Korrelationsverf ahren, mit welchem die Korrelati- 
onsmatrix berechnet wird, welche anschlieflend im dreidimen- 

35 sionalen Raum auf einem Computerdisplay visualisiert wird. 
Hierdurch wird erstmals die Veranschaulichung mehrwertiger 
formaler Kontexte ermoglicht. 
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Figur 3 veranschaulicht die Berechnung eines Relevanzwertes 
eines Dokuments in bezug auf ein Suchprofil. Wie bereits be- 
schrieben, werden dazu die Texte des Dokuments und des Such- 
5 profils als Vektoren dargestellt. Wegen einer einfachen uber- 
sichtlichen Darstellung wurde hier lediglich ein Suchprofil 
mit zwei Worten T10 und T20 gewahlt. Beispielsweise werden in 
diesem Fall epidemologische Dokumente untersucht. Der Begriff 
T10 bedeutet beispielsweise influenza und T20 bedeutet out- 
10 break. DV bezeichnet den Dokumentenvektor und PV bezeichnet 
den Suchprofilvektor. An den jeweiligen Achsen T10 und T20 
ist die Haufigkeit der Worte angegeben. Der Winkel a dient 
als MaB fur die Ubereinstimmung des Suchprof ilvektors PV und 
des Dokumentenvektors DV. Insbesondere kann hier fur der Kosi- 
15 nus des Winkels gebildet werden, da bei einer Ubereinstimmung 
der beiden Vektoren der Winkel 0 ware und damit der Kosinus 
1, was einer exakten Ubereinstimmung entsprache. 

Zur Berechnung des Relevanzwertes eines Dokuments beziiglich 
20 eines Profiles folgt nun ein Beispiel: 

Gegeben sei ein Dokument: 

{Influenza report: Large influenza outbreak reaches Paris.) 

25 

Zu diesem Dokument wird ein Dokumentenvektor, dessen Dimen- 
sionen durch die Begriffe "influenza, large, outbreak, paris, 
reaches, report" bestimmt sind definiert. Das Dokument wird 
beziiglich dieser Dimensionen als Dokumentenvektor 

30 

d={2, 1, 1, 1 , 1, 1} 

dargestellt. Die Elemente des Vektors d entsprechen den 
Worthauf igkeiten der auftretenden Begriffe. 

35 

Ahnlich wie fur Dokumente und Dokumentenvektoren wird ein 
Suchprofil definiert, 
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{influenza, outbreak} , 



und ein Profilvektor PV, dessen Elemente Gewichtungen der Be- 
5 griff sdimensionen "influenza" und "outbreak" entsprechen, 



PV={1, 1). 



Es wird die Projektion des Dokumentenvektors d auf die Ebene 
10 des Prof ilvektors berechnet und es ergibt sich der proji- 

zierte Dokumentenvektor , DV={2, 1}. AnschlieJSend wird cos a 
zwischen DV und PV als Maii ftir die Relevanz r des Dokuments 
beztiglich des Profils definiert: 

<DV,PV> 

15 r=cos a =— — — 

|DV|| ||PV|| 

<DV,PV> ist das Skalarprodukt der Vektoren DV und PV, ||.|| ist 
die Lange eines Vektors . 



20 Ftir die Beispielvektoren DV und PV ergibt sich somit eine Re- 
levanz des Dokuments beztiglich des Prof ilvektors von 

r= (2±j) = 0 ,95. 

25 Der Spezialf all r=l , bzw. a=0° entspricht der bestmoglichen 
Relevanz des Dokuments beztiglich des Profils . Ein Wert r=0 
ergibt sich bei minimaler Relevanz, bzw. Othogonalitat zwi- 
schen DV und PV. 



30 Es folgt ein Beispiel zur Berechnung der Korrelationskoef f i- 
zienten c ik aus der Relevanzmatrix R: 



Gegeben seien zwei Zeilenvektoren r ± und r k der Matrix R, 
welche die Relevanzen der Dokumente i und k bezogen auf vier 



"v-v-irv ^.\A/r> 001 no 1 oa 1 i ^ 
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Profile enthalt. Die Vektoreh der Zeilen i und k enthalten 
die Elemente, 

ri=(0.6, 0.2, 0.4, 0.8) 

5 und 

r k = ( 0 . 0 , 0.1, 0.3, 0.4). 

Daraus ergeben sich die Mittelwerte 

10 mi=0.5, m k =0.2. 

Weiter erhalt man 

q^ri-m^ (0.1, -0.3, -0.1, 0.3) 
15 q k =(-0.2, -0.1, 0.1, 0.2), 

mit Langen 

a^O.4472, a k =0.3162. 

20 

FUr den Korrelationskoef f izienten c ik ergibt sich, 
^=^1=0.4243. 

25 

Dieser Koeffizient wird als MaB der Ahnlichkeit von Dokumen- 
ten i und Dokument k, bezuglich der vier Profile interpre- 
tiert. Die Matrix C hat die Form einer Gegenstands-Gegen- 
stands-Ahnlichkeitsmatrix und kann mit bekannten Verfahren 
30 visualisiert werden. 

Wie Figur 4 zeigt, kann eine Dokument enauswertung in bezug 
auf Interessen bzw. Suchprofile auf einem Bildschirm DIS ver- 
anschaulicht werden. Auf dem dargestellten Bildschirmaus- 
35 schnitt sind Dokumente als Wiirfel und Suchprofile als Kugeln 
dargestellt. Im einzelnen handelt es sich bei den Suchprofi- 
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len urn summer, Complication, Measles, Chicken-Pox dazu gas- 
tro-entritis, Diarrhea, winter, Vaccine illness/outbreak, 
flu, Mumps. Die Dokumente sind im einzelnen nicht bezeichnet. 
Durch anklicken eines Dokumentes mit dem Cursor CU wird bei- 
5 spielsweise ein Fenster 10 angezeigt, in welchem der Inhalt 
des jeweiligen Dokumentes dargestellt wird. Wichtig ist hier- 
bei, dafi durch die Anordnung der einzelnen Dokumente zwischen 
den einzelnen Suchprofilen genau angegeben wird, inwieweit 
die einzelnen Suchprofile in bezug auf dieses Dokument rele- 

10 vant sind. Bei der erf indungsgemafi durchzuf uhrenden Analyse 

der einzelnen elektronischen Dokumente konnen fur die einzel- 
nen Suchbegriffe in den jeweiligen Suchprofilen Gewichtungs- 
faktoren vergeben werden, damit diese beispielsweise abge- 
schwacht gewichtet werden konnen, was zu einer geringeren 

15 Haufigkeit in bezug auf die Obereinstimmung bestimmter Worte 
mit den jeweiligen Dokumenten fiihren wtirde. Anstatt eines 
zweidimensionalen Computer Displays DIS konnen auch dreidi- 
raensionale Anzeigevorrichtungen, wie Virtual-Reality-Raume, 
Head Mounted Display, 3D-Display oder holographisch arbei- 

20 tende Anzeigen Verwendung finden. 
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In diesem Dokument sind folgende Verof f entlichungen zitiert: 



[1] : US 5 649 193 
5 [2] : US 5 576 954 
[3] : US 5 642 518 
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Patentanspriiche : 

l.Verfahren zur rechnergesttitzten Ermittlung einer Relevanz 
eines elektronischen Dokuments fur ein vorgebbares 
5 Suchprofil das folgende Schritte umfafit: 

a) es wird das Suchprofil, das mindestens ein Wort umfafit, 
erstellt ; 

b> fur jedes Wort des Suchprofils wird die 

Auf trittshauf igkeit des Wortes in dem elektronischen 
10 Dokument bestimmt; 

c) unter Verwendung der Auf trittshauf igkeit jedes Wortes wird 
fur das elektronische Dokument ein Ergebnisprof il bestimmt; 

d) unter Verwendung des Suchprofils und des Ergebnisprof ils 
des elektronischen Dokuments wird ein Vektor fur das 

15 Suchprofil bestimmt, wobei jedes Wort des Suchprofils eine 
Vektorkomponente und ein vorgebbarer Wert ein Wert der 
Vektorkomponente ist, und ein Vektor fur das Ergebnisprof il 
bestimmt, wobei jedes Wort des Suchprofils eine 
Vektorkomponente und die entsprechende Haufigkeit ein Wert 

20 der Vektorkomponente ist; 

e) es wird ein Winkel zwischen dem Vektor des Suchprofils und 
dem Vektor des Ergebnisprof ils bestimmt; 

f) unter Verwendung des Winkels wird die Relevanz bestimmt. 

25 2. Verfahren nach Anspruch 1, bei dem 

jeweils die Relevanz fur mehrere Suchprofile und/oder 
mehrere elektronische Dokumente bestimmt wird. 

3. Verfahren nach Anspruch 1 oder 2, bei dem 
30 ein erstes, den Vektor eines Suchprofils reprasentierendes, 
Element und ein zweites, den Vektor eines Ergebnisprof il 
eines elektronischen Dokuments reprasentierendes, Element 
dargestellt werden . 

35 4. Verfahren nach Anspruch 3, bei dem 

mehrere zweite Elemente, die jeweils einen Vektor eines 
Ergebnisprof ils eines elektronischen Dokuments 
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reprasentieren, dargestellt werden, derart, daJ3 zweite 
Elemente von elektronischen Dokumenten, welche Dokumente 
eine Relevanz aufweisen, die kleiner 1st als ein 
Schwellenwert, ortlich naher beieinander dargestellt werden 
5 als zweite Elemente von elektronischen Dokumenten, welche 

elektronische Dokumente eine Relevanz aufweisen, die nicht 
kleiner ist als der Schwellenwert. 

5. Verfahren nach Anspruch 2 bis 4, bei dem 

10 unter Verwendung der Relevanzen eine Relevanzmatrix (R) 
bestimmt wird. 

6. Verfahren nach Anspruch 5, bei dem 

aus der Relevanzmatrix (R) eine Ahlichkeitsmatrix gebildet 
15 wird, indent die Relevanzwerte je elektronischem Dokument 
(D) zu Relevanzvektoren zusammengef aftt und miteinander 
korreliert werden und bei dem diese Ahnlichkeitsmatrix fur 
die grafische Darstellung auf einem Rechnerdi splay (DIS) 
verwendet wird, wobei ein Sinnbild eines ersten elektroni- 
20 schen Dokumentes, welches eine hohere Korrelation mit einem 

zweiten elektronischen Dokument aufweist als ein drittes, 
raumlich naher am Sinnbild des zweiten elektronischen 
Dokumentes dargestellt wird, als das Sinnbild des dritten. 

25 7. Verfahren nach einem der Anspruche 1 bis 6, bei dem als 
Winkelfunktion der Kosinus verwendet wird. 

8. Verfahren nach einem der Anspruche 1 bis 7, bei dem als 
elektronische Dokumente (D) Suchergebnisse einer Suche in 

30 einem Rechnernetzwerk verwendet werden. 

9. Verfahren nach Anspruch 8, bei dem als Rechnernetzwerk das 
Internet verwendet wird. 

35 10. Verfahren nach einem der AnsprUche 1 bis 7, bei dem als 
elektronische Dokumente .(D) Dokumente aus einer Datenbank 
verwendet werden. 
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11. Verfahren nach einem der vorangehenden Anspruche, bei dem 
als Suchprofile (P) elektronische Dokumente (D) verwendet 
werden. 

5 

12. Verfahren nach einem der vorangehenden Anspruche, bei dem 
ein auf der Angezeigevorrichtung (DIS) angezeigte Sinnbild 
mittels einer Eingabevorrichtung der Rechners ausgewahlt 
und/oder der Textinhalt des Dokumentes fur das das Sinnbild 

10 steht zur Anzeige gebracht wird. 

13. System zur rechnergestutzten Ermittlung einer Relevanz 
eines elektronischen Dokuments fur ein vorgebbares 
Suchprofil mit folgenden Merkmalen: 
15 a) es ist ein Rechner (COMP) vorhanden, der derart 

eingerichtet ist, dafi folgende Schritte durchfuhrbar sind: 

- es wird das Suchprofil, das mindestens ein Wort umfaflt, 
erstellt ; 

- fur jedes Wort des Suchprofils wird die 

20 Auf trittshauf igkeit des Wortes in dem elektronischen 

Dokument bestimmt; 

- unter Verwendung der Auf trittshauf igkeit jedes Wortes 
wird fur das elektronische Dokument ein Ergebnisprof il 
bestimmt; 

25 - unter Verwendung des Suchprofils und des 

Ergebnisprof ils des elektronischen Dokuments wird ein 
Vektor fiir das Suchprofil bestimmt, wobei jedes Wort 
des Suchprofils eine Vektorkomponente und ein 
vorgebbarer Wert ein Wert der Vektorkomponente ist, und 

30 ein Vektor fur das Ergebnisprof il bestimmt, wobei jedes 

Wort des Suchprofils eine Vektorkomponente und die 
entsprechende Haufigkeit ein Wert der Vektorkomponente 
ist; 

- es wird ein Winkel zwischen dem Vektor des Suchprofils 
35 und dem Vektor des Ergebnisprof ils bestimmt; 

- unter Verwendung des Winkels wird die Relevanz 
bestimmt ; 
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b) es ist eine grafische Rechneranzeigevorrichtung (DIS) vor- 
handen; 

c) es sind Mittel zum Zugriff (Z) auf elektronische Dokumente 
(D) vorhanden. 

14. System nach Anspruch 13, bei dem Auswahlmittel vorhanden 
sind, zur Auswahl eines Sinnbildes auf der Rechneranzeige- 
vorrichtung (DIS) . 



10 
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